SQL Server learning series HDFS
SQL Server learning series HDFS 2021/3/20
https://www.youtube.com/watch?v=v9EhWRIOAJk&list=PL-_k_UrAvrYugTB6GXpPSs_NMdTVX7XRD&index=2
HDFSの階層化と, データレイクの統合機能の説明.
昨今の管理すべきデータ量が増えた.
https://gyazo.com/07779770559afda573cb04f860dd8333
構成
データ処理エンジン(Big Data Cluster)
Spark
SQL Server
データ
他Cloud上のデータストア
Azure上のデータストア
HDFS
下記のデータ・リソースがマウントできるようになった, そしてローカルHDFSとして扱ってデータ処理ができるようになった. リモートにあるデータをローカルにあるように見せかけられるので処理速度も上がった.
当動画では, Big Data Clusterのリモートデータサーバーのマウント方法が説明されている.
Azure Data Studioから操作可能
notebookという画面から簡単に分析を実施することが可能.
マウントが完了したら, Sparkでの分析が実際にできる.
データの所在がどこだろうと, 1つのGUIから簡単にアクセスして統合して分析できるのめちゃくちゃいいな.
#SQLServer #Database